\section{Bootstrap 方法 *}

\subsection{标准误差}

在统计建模中,伴随着参数的估计值,应该同时给出估计的 “标准误差”。设总体 \(X \sim  F\left( {x,\theta }\right) ,\theta  \in  \Theta ,\widehat{\phi }\) 是总体的一个参数 \(\phi\) 的估计量,称 \(\mathrm{{SE}} = \sqrt{\operatorname{Var}\left( \widehat{\phi }\right) }\) 为 \(\widehat{\phi }\) 的标准误差。 实际工作中 \(\mathrm{{SE}}\) 一般是未知的, \(\mathrm{{SE}}\) 的估计也称为 \(\widehat{\phi }\) 的标准误差。对有偏估计,除了标准误差外我们还希望能够估计偏差。进一步地,我们还可能希望得到统计量 \(\widehat{\phi }\) 的分布,称为抽样分布。

例 3.6.1. 设 \({X}_{i},i = 1,\ldots ,n\) 是总体 \(X \sim  F\left( x\right)\) 的样本,样本平均值 \(\widehat{\phi } = \bar{X} = \frac{1}{n}\mathop{\sum }\limits_{i}{X}_{i}\) 为 \(\phi  = {EX}\) 的点估计, \(\operatorname{SE}\left( \bar{X}\right)  = \sqrt{\operatorname{Var}\left( X\right) /n}\) ,可以用 \(S/\sqrt{n}\) 估计 \(\mathrm{{SE}}\left( {S}^{2}\right.\) 为样本方差)。 根据中心极限定理和强大数律,当样本量 \(n\) 较大时可以取 \({EX}\) 的近似 \({95}\%\) 置信区间为 \(\bar{X} \pm  2\operatorname{SE}\left( \bar{X}\right)\) 。

例 3.6.2. 考虑线性模型中参数估计的精度。设模型为

\[
\mathbf{Y} = \mathbf{X}\mathbf{\beta } + \varepsilon , \tag{3.74}
\]

其中 \(\varepsilon  \sim  \mathrm{N}\left( {0,{\sigma }^{2}{I}_{n}}\right) ,{\sigma }^{2}\) 未知, \(\mathbf{\beta }\) 是未知系数向量, \(X\) 是已知的 \(n \times  p\) 数值矩阵, \(n > p\) 。在 \(X\) 列满秩时 \(\mathbf{\beta }\) 的最小二乘估计为 \(\widehat{\mathbf{\beta }} = {\left( {X}^{T}X\right) }^{-1}{X}^{T}\mathbf{Y}\) ,而 \(\widehat{\mathbf{\beta }}\) 的协方差阵为 \(\operatorname{Var}\left( \widehat{\mathbf{\beta }}\right)  = {\sigma }^{2}{\left( {X}^{T}X\right) }^{-1}\) 。 所以,第 \(j\) 个系数 \({\beta }_{j}\) 的标准误差可估计为 \(\mathrm{{SE}}\left( {\widehat{\theta }}_{j}\right)  = \widehat{\sigma }\sqrt{{a}^{\left( jj\right) }}\) ,其中 \(\widehat{\sigma }\) 是 \(\sigma\) 的估计, \({a}^{\left( ij\right) }\) 为 \({\left( {X}^{T}X\right) }^{-1}\) 的(i, j)元素。

例 3.6.3. 设总体 \(X \sim  p\left( {x,\theta }\right) ,\theta  \in  \Theta ,{X}_{1},{X}_{2},\ldots ,{X}_{n}\) 为 \(X\) 的简单随机样本, \(\widehat{\theta }\) 是真值 \(\theta\) 的最大似然估计。在适当正则性条件下, \(\widehat{\theta }\) 渐近正态分布,渐近方差为 \(\frac{1}{n}{I}^{-1}\left( \theta \right) ,I\left( \theta \right)\) 为参数 \(\theta\) 的

表 3.1: 百分比的两种置信区间的模拟比较结果 (有删减)

\begin{center}
\adjustbox{max width=\textwidth}{
\begin{tabular}{|c|c|c|c|c|c|c|c|c|}
\hline
置信度 & 样本量 & \(p\) & \({r}_{1}\) & \({r}_{2}\) & \({\bar{l}}_{1}\) & \({\bar{l}}_{2}\) & \({s}_{1}\) & \({s}_{2}\) \\
\cline{1-9}
\multirow{16}{*}{0.99} & \multirow{3}{*}{30} & 0.1 & 95.7\% & 99.2\% & 0.2646 & 0.2870 & 0.0834 & 0.0448 \\
\cline{3-9}
 &  & 0.3 & 96.8\% & 99.2\% & 0.4221 & 0.3905 & 0.0375 & 0.0267 \\
\cline{3-9}
 &  & 0.5 & 98.4\% & 99.5\% & 0.4623 & 0.4196 & 0.0115 & 0.0084 \\
\cline{2-9}
 & \multirow{4}{*}{120} & 0.05 & 94.2\% & 99.3\% & 0.1000 & 0.1088 & 0.0204 & 0.0164 \\
\cline{3-9}
 &  & 0.1 & 98.3\% & 99.0\% & 0.1394 & 0.1423 & 0.0176 & 0.0154 \\
\cline{3-9}
 &  & 0.3 & 98.7\% & 98.8\% & 0.2144 & 0.2099 & 0.0088 & 0.0080 \\
\cline{3-9}
 &  & 0.5 & 98.7\% & 99.2\% & 0.2342 & 0.2280 & 0.0014 & 0.0013 \\
\cline{2-9}
 & \multirow{9}{*}{480} & 0.01 & 95.2\% & 99.0\% & 0.0227 & 0.0264 & 0.0057 & 0.0045 \\
\cline{3-9}
 &  & 0.05 & 98.1\% & 99.1\% & 0.0510 & 0.0521 & 0.0049 & 0.0046 \\
\cline{3-9}
 &  & 0.1 & 98.7\% & 98.8\% & 0.0703 & 0.0707 & 0.0043 & 0.0042 \\
\cline{3-9}
 &  & 0.3 & 99.0\% & 98.9\% & 0.1076 & 0.1070 & 0.0022 & 0.0021 \\
\cline{3-9}
 &  & 0.5 & 99.1\% & 99.1\% & 0.1174 & 0.1166 & 0.0002 & 0.0002 \\
\cline{3-9}
 &  & 0.7 & 99.0\% & 98.9\% & 0.1076 & 0.1070 & 0.0022 & 0.0021 \\
\cline{3-9}
 &  & 0.9 & 98.7\% & 98.8\% & 0.0703 & 0.0707 & 0.0043 & 0.0042 \\
\cline{3-9}
 &  & 0.95 & 98.1\% & 99.1\% & 0.0510 & 0.0521 & 0.0049 & 0.0046 \\
\cline{3-9}
 &  & 0.99 & 95.3\% & 99.0\% & 0.0227 & 0.0264 & 0.0057 & 0.0045 \\
\cline{1-9}
\multirow{16}{*}{0.8} & \multirow{3}{*}{30} & 0.1 & 74.3\% & 88.4\% & 0.1317 & 0.1370 & 0.0414 & 0.0323 \\
\cline{3-9}
 &  & 0.3 & 75.7\% & 84.0\% & 0.2100 & 0.2058 & 0.0186 & 0.0170 \\
\cline{3-9}
 &  & 0.5 & 80.0\% & 80.0\% & 0.2300 & 0.2241 & 0.0057 & 0.0053 \\
\cline{2-9}
 & \multirow{4}{*}{120} & 0.05 & 77.7\% & 86.4\% & 0.0498 & 0.0510 & 0.0101 & 0.0095 \\
\cline{3-9}
 &  & 0.1 & 76.8\% & 83.1\% & 0.0693 & 0.0698 & 0.0087 & 0.0084 \\
\cline{3-9}
 &  & 0.3 & 80.6\% & 80.6\% & 0.1067 & 0.1061 & 0.0044 & 0.0043 \\
\cline{3-9}
 &  & 0.5 & 76.6\% & 83.0\% & 0.1165 & 0.1157 & 0.0007 & 0.0007 \\
\cline{2-9}
 & \multirow{9}{*}{480} & 0.01 & 80.4\% & 74.7\% & 0.0113 & 0.0118 & 0.0028 & 0.0026 \\
\cline{3-9}
 &  & 0.05 & 78.8\% & 82.9\% & 0.0254 & 0.0255 & 0.0024 & 0.0024 \\
\cline{3-9}
 &  & 0.1 & 79.7\% & 80.4\% & 0.0350 & 0.0350 & 0.0021 & 0.0021 \\
\cline{3-9}
 &  & 0.3 & 80.3\% & 78.6\% & 0.0535 & 0.0535 & 0.0011 & 0.0011 \\
\cline{3-9}
 &  & 0.5 & 81.5\% & 81.5\% & 0.0584 & 0.0583 & 0.0001 & 0.0001 \\
\cline{3-9}
 &  & 0.7 & 80.4\% & 78.7\% & 0.0535 & 0.0535 & 0.0011 & 0.0011 \\
\cline{3-9}
 &  & 0.9 & 79.8\% & 80.5\% & 0.0350 & 0.0350 & 0.0021 & 0.0021 \\
\cline{3-9}
 &  & 0.95 & 78.9\% & 82.8\% & 0.0254 & 0.0255 & 0.0024 & 0.0024 \\
\cline{3-9}
 &  & 0.99 & 80.4\% & 74.6\% & 0.0113 & 0.0118 & 0.0028 & 0.0026 \\
\cline{1-9}
\hline
\end{tabular}
}
\end{center}

信息量 (参见茆诗松等 \({\left( {2006}\right) }^{\left\lbrack  7\right\rbrack  }§{2.5.2}\) 定理 2.14):

\[
I\left( \theta \right)  = \mathrm{E}\left\lbrack  {\left( \frac{\partial \ln p\left( {X,\theta }\right) }{\partial \theta }\right) }^{2}\right\rbrack   = \operatorname{Var}\left( \frac{\partial \ln p\left( {X,\theta }\right) }{\partial \theta }\right)  \tag{3.75}
\]

在加强的条件下还有

\[
I\left( \theta \right)  =  - \mathrm{E}\left( \frac{{\partial }^{2}\ln p\left( {X,\theta }\right) }{\partial {\theta }^{2}}\right)  \tag{3.76}
\]

可以用 \(\sqrt{{I}^{-1}\left( \widehat{\theta }\right) /n}\) 估计 \(\widehat{\theta }\) 的 \(\mathrm{{SE}}\) 。

例 3.6.4. 设总体 \(X \sim  p\left( {x,\mathbf{\theta }}\right) ,\mathbf{\theta } = \left( {{\theta }_{1},\ldots ,{\theta }_{m}}\right)\) ,记

\[
\mathbf{S}\left( \theta \right)  = {\nabla }_{\mathbf{\theta }}\ln p\left( {X,\mathbf{\theta }}\right)  = {\left( \frac{\partial \ln p\left( {X,\mathbf{\theta }}\right) }{\partial {\theta }_{1}},\ldots ,\frac{\partial \ln p\left( {X,\mathbf{\theta }}\right) }{\partial {\theta }_{m}}\right) }^{T}, \tag{3.77}
\]

\[
I\left( \theta \right)  = \operatorname{Var}\left( {\mathbf{S}\left( \theta \right) }\right) , \tag{3.78}
\]

称 \(I\left( \theta \right)\) 为信息量矩阵,其(i, j)元素为

\[
\operatorname{Cov}\left( {\frac{\partial \ln p\left( {X,\mathbf{\theta }}\right) }{\partial {\theta }_{i}},\frac{\partial \ln p\left( {X,\mathbf{\theta }}\right) }{\partial {\theta }_{j}}}\right)  \tag{3.79}
\]

在加强的条件下 \(I\left( \theta \right)  =  - E\left( {H\left( {X;\theta }\right) }\right) ,H\) 是 \(\ln p\left( {X,\mathbf{\theta }}\right)\) 关于自变量 \(\mathbf{\theta }\) 的海色阵,其(i, j)元素为 \(\frac{{\partial }^{2}\ln p\left( {X,\theta }\right) }{\partial {\theta }_{i}\partial {\theta }_{j}}\) 。设 \({X}_{1},{X}_{2},\ldots ,{X}_{n}\) 为 \(X\) 的简单随机样本, \(\widehat{\mathbf{\theta }}\) 为 \(\mathbf{\theta }\) 的最大似然估计,在适条件下 \(\widehat{\mathbf{\theta }}\) 渐近正态分布 \(N\left( {\mathbf{\theta },\frac{1}{n}{I}^{-1}\left( \mathbf{\theta }\right) }\right)\) ,可以用 \(- \frac{1}{n}{H}^{-1}\left( {X;\widehat{\theta }}\right)\) 作为 \(\operatorname{Var}\left( \widehat{\theta }\right)\) 的估计。

\subsection{Bootstrap 方法的引入}

计算参数估计的标准误差不一定总有简单的公式。例如,需要估计的参数不一定是 \({EX}\) 这样的简单特征,像中位数、相关系数这样的参数估计的标准误差就比 \({EX}\) 的估计的标准误差要困难得多。在线性模型估计的例子中, 如果独立性、线性或者正态分布的假定不满足则求参数估计方差阵变得很困难, 比如稳健回归系数的标准误差就很难得到理论公式。在最大似然估计问题中,最大似然估计不一定总是渐近正态的,信息量有时不存在或难以计算,从而无法用上面的方法给出标准误差。

{\color{red}\textbf{[为什么需要 Bootstrap]:} 传统方法需要知道统计量的分布公式,但现实中很多复杂统计量(如中位数、相关系数)的分布很难理论推导。Bootstrap 的核心思想是``用数据模拟数据''——既然无法用公式算,就让计算机反复从样本中重新抽样,直接模拟出统计量的分布。}

设总体 \(X\) 服从某个未知分布 \(F\left( x\right) ,\mathbf{X} = \left( {{x}_{1},{x}_{2},\ldots ,{x}_{n}}\right)\) 是 \(X\) 的一个样本, \(\phi\) 是 \(F\) 的一个参数,可以把 \(\phi\) 看成 \(F\) 的一个泛函 \(\phi \left( F\right)\) ,用统计量 \(\widehat{\phi } = g\left( \mathbf{X}\right)\) 估计 \(\phi\) ,设 \(\psi  = \psi \left( {g,F,n}\right)\) 是统计量 \(\widehat{\phi }\) 的某种分布特征 \((\widehat{\phi }\) 的抽样分布的数字特征)。例如 \(\psi  = \sqrt{\operatorname{Var}\left( \bar{X}\right) }\) 为统计量 \(\bar{X}\) 的标准误差,又如取 \(\psi  = E\widehat{\phi } - \phi\) 为统计量 \(\widehat{\phi }\) 的偏差。可以用随机模拟的方法估计 \(\psi\) 。

{\color{red}\textbf{[为什么 Bootstrap 有效]:} Bootstrap 的合理性基于``插入原理'':如果样本量 \(n\) 足够大,经验分布 \(\widehat{F}\) 接近真实分布 \(F\),那么 \(\psi(g, \widehat{F}, n)\) 就接近 \(\psi(g, F, n)\)。这就像用详细的样本地图代替未知的真实地形——样本越大,地图越准确,Bootstrap 估计越可靠。}

用随机模拟方法估计 \(\psi\) 的步骤如下。

( 1 )从样本 \(\mathbf{X}\) 估计总体分布 \(F\) 为 \(\widehat{F}\) ；

(2) 从 \(\widehat{F}\) 抽取 \(B\) 个独立样本 \({\mathbf{Y}}^{\left( b\right) },b = 1,\ldots ,B\) ,每一个 \({\mathbf{Y}}^{\left( b\right) }\) 样本量为 \(n\) ,称 \({\mathbf{Y}}^{\left( b\right) }\) 为 bootstrap 样本。

{\color{red}\textbf{[Bootstrap 的核心类比]:} 想象抽奖箱中有无限个球,你只能看到抽出的 \(n\) 个球。Bootstrap 的做法是:把这 \(n\) 个球放回箱子,反复从这 \(n\) 个球中有放回抽样,模拟``再抽一次 \(n\) 个球''的过程。通过重复 \(B\) 次,我们就能估计出如果重新抽样会得到怎样的统计量分布。}

( 3 )从每个 bootstrap 样本 \({\mathbf{Y}}^{\left( b\right) }\) 可以估计得到 \({\widehat{\phi }}^{\left( b\right) } = g\left( {\mathbf{Y}}^{\left( b\right) }\right) ,b = 1,\ldots ,B\) 。

(4) \({\widehat{\phi }}^{\left( b\right) },b = 1,\ldots ,B\) 是 \(g\left( \mathbf{Y}\right)\) 在 \(\widehat{F}\) 下的独立同分布样本,可以用标准的估计方法估计关于 \(g\left( \mathbf{Y}\right)\) 在 \(\widehat{F}\) 下的分布特征 \(\widehat{\psi } = \psi \left( {g,\widehat{F},n}\right)\) ,估计结果记作 \(\widetilde{\psi }\) ,并以 \(\widetilde{\psi }\) 作为统计量 \(\widehat{\phi }\) 的抽样分布的数字特征 \(\psi \left( {g,F,n}\right)\) 的估计值。

{\color{red}\textbf{[关键理解]:} Bootstrap 的逻辑是``以样本代总体'':用经验分布 \(\widehat{F}\) 代替未知的真实分布 \(F\),从 \(\widehat{F}\) 重抽样模拟``如果能再采样一次''的情况。这就像用手头的地图绘制新地图——虽然不完美,但能捕捉主要特征。}

从样本 \(\mathbf{X}\) 估计 \(\widehat{F}\) 时,可以采用参数模型,也可以采用经验分布函数 \({F}_{n}\) 。参数模型在模型正确时效率较高; 经验分布法使用简单,基本不依赖于模型。从经验分布 \({F}_{n}\) 抽样,相当于从 \(\mathbf{X} = \left( {{x}_{1},\ldots ,{x}_{n}}\right)\) 独立有放回抽样。

{\color{red}\textbf{[有放回抽样的必要性]:} 为什么必须``有放回''?因为原始样本只有 \(n\) 个观测值,如果无放回抽样每次仍得到这 \(n\) 个值的排列,统计量完全相同!有放回抽样允许某些观测值重复出现、某些不出现,这才产生了变异性,模拟了``重新采样''的随机性。}

估计量的标准误差可以用 bootstrap 方法估计。

例 3.6.5. 设(H, W)为某地小学五年级学生的身高和体重的总体, \(\left( {H,W}\right)  \sim  F\left( {\cdot , \cdot  }\right)\) ,考虑 \(H\) 和 \(W\) 的相关系数 \(\phi\) 的估计。设调查了 \(n = {10}\) 个学生的身高和体重的数据 \(\left( {{h}_{i},{w}_{i}}\right) ,i = 1,2,\ldots ,n\) :

\begin{center}
\adjustbox{max width=\textwidth}{
\begin{tabular}{|c|c|c|c|c|c|c|c|c|c|c|}
\hline
\({h}_{i}\) & 144 & 166 & 163 & 143 & 152 & 169 & 130 & 159 & 160 & 175 \\
\cline{1-11}
\({w}_{i}\) & 38 & 44 & 41 & 35 & 38 & 51 & 23 & 51 & 46 & 51 \\
\cline{1-11}
\hline
\end{tabular}
}
\end{center}

计算得 \(\widehat{\phi } = g\left( {{h}_{1},{w}_{1},\ldots ,{h}_{n},{w}_{n}}\right)  = {0.904}\) 。令 \(\mathrm{{SE}}\left( \widehat{\phi }\right)  = {\left\lbrack  \operatorname{Var}\left( \widehat{\phi }\right) \right\rbrack  }^{1/2} = \psi \left( {g,F,n}\right)\) 。设 \(\widehat{F}\) 为 \(F\) 的估计,取为经验分布 \({F}_{n}\) ,则 bootstrap 方法用随机模拟方法估计 \(\psi \left( {g,{F}_{n},n}\right)\) ,然后当作 \(\operatorname{SE}\left( \widehat{\phi }\right)\) 的估计。计算步骤如下:

(1) 从 \({F}_{n}\) 中作 \(n = {10}\) 次独立抽样,即从 \(\left\{  {\left( {{h}_{1},{w}_{1}}\right) ,\ldots ,\left( {{h}_{n},{w}_{n}}\right) }\right\}\) 中有放回独立抽取 \(n\) 次, 得到 \(\widehat{F} = {F}_{n}\) 的一组样本 \({\mathbf{Y}}^{\left( 1\right) } = \left( {\left( {{h}_{1}^{\left( 1\right) },{w}_{1}^{\left( 1\right) }}\right) ,\ldots ,\left( {{h}_{n}^{\left( 1\right) },{w}_{n}^{\left( 1\right) }}\right) }\right)\) ;

(2)重复第(1)步,直到获取了 \(B\) 组 bootstrap 样本 \({\mathbf{Y}}^{\left( b\right) },b = 1,\ldots ,B\) ；

( 3 )对每一样本 \({\mathbf{Y}}^{\left( b\right) }\) 计算样本相关系数 \({\widehat{\phi }}^{\left( b\right) } = g\left( {\mathbf{Y}}^{\left( b\right) }\right) ,b = 1,\ldots ,B\) ；

(4) 把 \({\widehat{\phi }}^{\left( b\right) },b = 1,\ldots ,B\) 作为 \(\widehat{F}\) 下 \(n = {10}\) 的样本相关系数的简单随机样本,估计其样本标准差 \(S\) ,以 \(S\) 作为 \(\psi \left( {g,\widehat{F},n}\right)\) 的估计,进而用 \(S\) 估计 \(\widehat{\phi }\) 在真实的总体分布 \(F\) 下的标准误差 \(\mathrm{{SE}}\left( \widehat{\phi }\right)\) 。

取 \(B = {10000}\) 的一次 bootstrap 计算得到的标准误差估计为 \(S = {0.101}\) 。当 \(B \rightarrow  \infty\) 时 \(S \rightarrow  \psi \left( {g,{F}_{n},n}\right)\) ,但是要注意,由于抽样误差影响, \(\psi \left( {g,{F}_{n},n}\right)\) 和 \(\psi \left( {g,F,n}\right)\) 之间的误差无法避免。

{\color{red}\textbf{[Bootstrap 的两层近似]:} Bootstrap 有两个误差来源:一是用经验分布 \({F}_{n}\) 近似真实分布 \(F\)(这取决于原始样本量 \(n\));二是用有限次重抽样 \(B\) 估计理论值 \(\psi(g, {F}_{n}, n)\)(这可以通过增大 \(B\) 减小)。第一层误差无法消除,第二层可以让 \(B \rightarrow \infty\) 消除。}

也可以用参数方法估计 \(\widehat{F}\) ,比如从历史经验知道总体的身高、体重服从联合正态分布, 就可以按照联合正态总体模型从样本中得到参数最大似然估计后作为 \(\widehat{F}\) 的参数,这时 \(\widehat{F}\) 是一个参数确定的二元联合正态分布 \(\mathrm{N}\left( {{156.1},{41.8},{13.78}^{2},{8.85}^{2},{0.904}}\right)\) 。从 \(\widehat{F}\) 中独立抽样 \(n\) 个得到一组样本,共生成 \(B\) 组这样的样本,称为 bootstrap 样本。接下来的步骤只要按照上面的 (3)、(4) 估计 \(\mathrm{{SE}}\left( \widehat{\phi }\right)\) 就可以了。取 \(B = {10000}\) 的一次 bootstrap 计算得到的标准误差估计为 0.080 。

例 3.6.6. 考虑回归模型系数估计的标准误差计算。一般的回归模型可以写成

\[
{y}_{i} = h\left( {{\mathbf{x}}_{i},\mathbf{\beta }}\right)  + {\varepsilon }_{i},\;i = 1,2,\ldots ,n \tag{3.80}
\]

其中 \(h\) 已知, \(\mathbf{\beta }\) 是未知参数向量, \(\left\{  {\varepsilon }_{i}\right\}\) iid \(F\left( x\right) ,F\left( x\right)\) 未知, \(\left\{  {\mathbf{x}}_{i}\right\}\) 是确定数值向量。可以用最小二乘等方法得到 \(\mathbf{\beta }\) 的估计 \(\widehat{\mathbf{\beta }} = g\left( {{y}_{1},\ldots ,{y}_{n}}\right)\) ,希望估计参数估计的协方差阵 \(\operatorname{Var}\left( \widehat{\mathbf{\beta }}\right)\) ,协方差阵主对角线元素的平方根就是单个系数估计的标准误差。这个模型中, 未知的分布信息包括 \(\mathbf{\beta }\) 和 \(F\) 。 \(\mathbf{\beta }\) 可用 \(\widehat{\mathbf{\beta }}\) 估计, \(F\) 可以用回归残差的经验分布来估计或假设一个参数模型估计模型参数。

用 bootstrap 方法估计 \(\operatorname{Var}\left( \widehat{\mathbf{\beta }}\right)\) 的步骤如下:

( 1 )估计 \(\mathbf{\beta }\) 得到 \(\widehat{\mathbf{\beta }} = g\left( {{y}_{1},\ldots ,{y}_{n}}\right)\) ；

(2)计算残差 \({e}_{i} = {y}_{i} - h\left( {{\mathbf{x}}_{i},\widehat{\mathbf{\beta }}}\right) ,i = 1,\ldots ,n\) ；

(3) 对 \(b = 1,\ldots ,B\) 重复:从 \(\left\{  {{e}_{1},\ldots ,{e}_{n}}\right\}\) 中有放回独立抽取 \(n\) 次得 \(\left\{  {{e}_{i}^{\left( b\right) },i = 1,\ldots ,n}\right\}\) ;

(4) 令 \({y}_{i}^{\left( b\right) } = h\left( {{\mathbf{x}}_{i},\widehat{\mathbf{\beta }}}\right)  + {e}_{i}^{\left( b\right) },i = 1,\ldots ,n,b = 1,2,\ldots ,B\) ;

( 5 )对 \(b = 1,2,\ldots ,B\) 重复:从 \(\left( {{y}_{1}^{\left( b\right) },\ldots ,{y}_{n}^{\left( b\right) }}\right)\) 中估计 \({\widehat{\mathbf{\beta }}}^{\left( b\right) } = g\left( {{y}_{1}^{\left( b\right) },\ldots ,{y}_{n}^{\left( b\right) }}\right)\) 。

(6) 用 \({\widehat{\mathbf{\beta }}}^{\left( b\right) },b = 1,\ldots ,B\) 的样本方差阵估计 \(\operatorname{Var}\left( \widehat{\mathbf{\beta }}\right)\) 。

\subsection{Bootstrap 偏差校正}

设 \(\mathbf{X} = \left( {{x}_{1},{x}_{2},\ldots ,{x}_{n}}\right)\) 为总体 \(F\left( \cdot \right)\) 的样本,总体参数 \(\phi  = \phi \left( F\right)\) 的估计为 \(\widehat{\phi } = g\left( \mathbf{X}\right)\) , \(b = E\widehat{\phi } - \phi\) 为估计偏差, \(\operatorname{Var}\left( \widehat{\phi }\right)\) 为估计方差,估计的均方误差可以分解为

\[
E{\left\lbrack  \widehat{\phi } - \phi \right\rbrack  }^{2} = \operatorname{Var}\left( \widehat{\phi }\right)  + {b}^{2}. \tag{3.81}
\]

{\color{red}\textbf{[偏差与方差的权衡]:} 均方误差分解式揭示了估计量的两种误差:方差(随机性导致的波动)和偏差的平方(系统性偏离真值)。Bootstrap 不仅能估计方差,还能估计偏差——通过比较 Bootstrap 样本的平均估计值与原始估计值的差异。}

如果 \(\widehat{b}\) 是 \(b\) 的估计,则参数 \(\phi\) 的一个改善的估计为 \(\widetilde{\phi } = \widehat{\phi } - \widehat{b}\) ,新的估计在减小了偏差的同时一般也减小了均方误差。设 \(b = \psi \left( {g,F,n}\right) ,\widehat{F}\) 是总体分布 \(F\) 的一个估计,这里 \(\widehat{F}\) 取为经验分布 \({F}_{n}\) ,则可以用 \(\widehat{b} = \psi \left( {g,\widehat{F},n}\right)  = {Eg}\left( \mathbf{Y}\right)  - \widehat{\phi }\) 来估计偏差,其中 \(\mathbf{Y}\) 是总体 \({F}_{n}\) 的样本量为 \(n\) 的样本, \(\widehat{\phi }\) 恰好是总体分布为 \({F}_{n}\) 时的参数 \(\phi\) ,即 \(\widehat{\phi } = \phi \left( {F}_{n}\right)\) 。如果 \(\widehat{b}\) 不能通过理论公式计算,可以用 bootstrap 方法估计 \(\widehat{b}\) ,步骤如下:

( 1 )从 \(\left\{  {{x}_{1},{x}_{2},\ldots ,{x}_{n}}\right\}\) 独立有放回地抽取 \(n\) 个,记为 \({\mathbf{Y}}^{\left( 1\right) } = \left( {{Y}_{1}^{\left( 1\right) },{Y}_{2}^{\left( 1\right) },\ldots ,{Y}_{n}^{\left( 1\right) }}\right)\) 。

(2)重复第 (1) 步,直到获取了 \(B\) 组 bootstrap 样本 \({\mathbf{Y}}^{\left( b\right) },b = 1,2,\ldots ,B\) ；

( 3 )从每个 bootstrap 样本 \({\mathbf{Y}}^{\left( b\right) }\) 可以估计得到 \({\widehat{\phi }}^{\left( b\right) } = g\left( {\mathbf{Y}}^{\left( b\right) }\right) ,b = 1,\ldots ,B\) 。

(4) 用 \({\widehat{\phi }}^{\left( b\right) },b = 1,\ldots ,B\) 作为 \(g\left( \mathbf{Y}\right)\) 在 \({F}_{n}\) 下的独立同分布样本,估计 \(\widehat{b} = \psi \left( {g,{F}_{n},n}\right)\) 为 \(\widetilde{b} = \frac{1}{B}\mathop{\sum }\limits_{{b = 1}}^{B}{\widehat{\phi }}^{\left( b\right) } - \widehat{\phi }\) 。

最后,取 \(\widetilde{\phi } = \widehat{\phi } - \widetilde{b} = 2\widehat{\phi } - \frac{1}{B}\mathop{\sum }\limits_{{b = 1}}^{B}{\widehat{\phi }}^{\left( b\right) }\) 为改善的估计。

{\color{red}\textbf{[偏差校正的直觉]:} 如果 Bootstrap 重抽样得到的平均估计值 \(\frac{1}{B}\sum {\widehat{\phi}}^{(b)}\) 系统性地偏离原始估计 \(\widehat{\phi}\),这暗示 \(\widehat{\phi}\) 本身也可能系统性偏离真值 \(\phi\)。校正公式 \(2\widehat{\phi} - \frac{1}{B}\sum {\widehat{\phi}}^{(b)}\) 就是``反向修正''这个偏差。}

例 3.6.7. 设 \(X \sim  \mathrm{N}\left( {\mu ,{\sigma }^{2}}\right) ,\mu ,{\sigma }^{2}\) 未知, \({x}_{1},{x}_{2},\ldots ,{x}_{n}\) 为 \(X\) 的样本。考虑 \(\phi  = {\mu }^{2}\) 的估计。 用最大似然估计法估计 \(\phi\) 为 \(\widehat{\phi } = {\bar{X}}^{2}\) ,其中 \(\bar{X}\) 为样本平均值。令 \(Z = \sqrt{n}\left( {\bar{X} - \mu }\right) /\sigma\) ,则 \(Z \sim  \mathrm{N}\left( {0,1}\right)\) 。可以计算出估计偏差为

\[
b = E{\bar{X}}^{2} - {\mu }^{2} = E{\left( \mu  + \frac{\sigma }{\sqrt{n}}Z\right) }^{2} - {\mu }^{2} = \frac{{\sigma }^{2}}{n}, \tag{3.82}
\]

估计的均方误差为

\[
{L}_{0} = E{\left( {\bar{X}}^{2} - {\mu }^{2}\right) }^{2} = E{\left( \frac{2\sigma \mu }{\sqrt{n}}Z + \frac{{\sigma }^{2}}{n}{Z}^{2}\right) }^{2}
\]

\[
= \frac{4{\sigma }^{2}{\mu }^{2}}{n} + \frac{3{\sigma }^{4}}{{n}^{2}}. \tag{3.83}
\]

估计 \(b\) 为 \({\widehat{b}}_{1} = {S}^{2}/n\left( {S}^{2}\right.\) 为样本方差),用 \({\widehat{\phi }}_{1} = {\bar{X}}^{2} - {\widehat{b}}_{1} = {\bar{X}}^{2} - \frac{{S}^{2}}{n}\) 作为 \({\mu }^{2}\) 的改善的估计,则 \({\widehat{\phi }}_{1}\) 的均方误差比 \(\widehat{\phi }\) 的均方误差减小了 \(\frac{n - 3}{n - 1}\frac{{\sigma }^{4}}{{n}^{2}}\) (设 \(n > 3\) ,见习题17)。

如果模型更为复杂,比如,总体分布类型未知, \({\widehat{b}}_{1}\) 这样的简单偏差估计很难得到,这种情况下可以用 bootstrap 方法进行偏差校正, 步骤如下:

(1) 对 \(b = 1,2,\ldots ,B\) 重复: 从 \({x}_{1},{x}_{2},\ldots ,{x}_{n}\) 独立有放回地抽取 \(n\) 个,组成 bootstrap 样本 \({\mathbf{Y}}^{\left( b\right) } = \left( {{y}_{1}^{\left( b\right) },\ldots ,{y}_{n}^{\left( b\right) }}\right) ;\)

(2)对每个 bootstrap 样本计算 \({\widehat{\phi }}^{\left( b\right) } = {\left( \frac{1}{n}\mathop{\sum }\limits_{{i = 1}}^{n}{y}_{i}^{\left( b\right) }\right) }^{2}\) ；

( 3 )用 \(\widetilde{\phi } = 2{\bar{X}}^{2} - \frac{1}{B}\mathop{\sum }\limits_{{b = 1}}^{B}{\widehat{\phi }}^{\left( b\right) }\) 作为 \({\mu }^{2}\) 的改善的估计。

Jacknife 方法是另外一种对估计量的偏差和方差进行估计的方法, 这种方法不需要从原来的样本重新随机抽样,而是把原来的 \(n\) 个样本点分为 \(r\) 份,每次删去其中一份后计算统计量值,利用 \(r\) 个这样的统计量值对估计量的偏差和方差进行估计。详见 \(\operatorname{Gentle}{\left( {2002}\right) }^{\left\lbrack  {18}\right\rbrack  }§{3.3}\) 。

\subsection{Bootstrap 置信区间}

枢轴量法是构造置信区间的最基本的方法。设 \(\phi\) 是总体 \(F\left( \cdot \right)\) 的一个参数,看成 \(F\) 的一个泛函 \(\phi  = \phi \left( F\right)\) 。 \(\mathbf{X} = \left( {{x}_{1},{x}_{2},\ldots ,{x}_{n}}\right)\) 为总体的样本, \(g\left( \mathbf{X}\right)\) 为与 \(\phi\) 有关系的一个统计量, 经常是 \(\phi\) 的估计量。如果有变换 \(W = h\left( {g\left( \mathbf{X}\right) ,\phi }\right)\) 使得 \(W\) 的分布不依赖于任何未知参数,则设 \(W\) 的左右两侧分位数分别为 \({w}_{\frac{\alpha }{2}}\) 和 \({w}_{1 - \frac{\alpha }{2}}\) ,有

\[
P\left( {{w}_{\frac{\alpha }{2}} < h\left( {T,\phi }\right)  < {w}_{1 - \frac{\alpha }{2}}}\right)  = 1 - \alpha , \tag{3.84}
\]

{\color{red}\textbf{[枢轴量的作用]:} 枢轴量 \(W\) 是构造置信区间的``桥梁''——它的分布已知且不依赖未知参数,因此可以找到分位数。但很多情况下 \(W\) 的分布理论上难以求得,这时 Bootstrap 通过模拟来近似 \(W\) 的分布。}

反解上面的不等式可以得到 \(\phi\) 的置信区间。

如果对枢轴量 \(W\) 很难求分位数时,可以用 bootstrap 方法获得置信区间。设 \(\widehat{F}\) 为总体分布 \(F\) 的估计,设 \(\mathbf{Y} = \left( {{y}_{1},\ldots ,{y}_{n}}\right)\) 为总体 \(\widehat{F}\) 的样本, \(\widehat{\phi } = \phi \left( \widehat{F}\right)\) 为与总体 \(\widehat{F}\) 对应的参数 \(\phi\) 的值,实际是 \(\phi\) 的估计值,则 \(V = h\left( {g\left( \mathbf{Y}\right) ,\widehat{\phi }}\right)\) 与 \(W\) 的分布相近,可以用 \(V\) 的分位数近似 \(W\) 的分位数。

例 3.6.8. 设总体 \(X \sim  F\left( {x,\theta }\right) ,\theta\) 为总体的未知参数, \(\phi  = {EX},\mathbf{X} = \left( {{x}_{1},{x}_{2},\ldots ,{x}_{n}}\right)\) 为总体的样本,则 \(g\left( \mathbf{X}\right)  = \bar{X}\) 是 \(\phi\) 的估计,若 \(W = h\left( {g\left( \mathbf{X}\right) ,\phi }\right)  = \bar{X} - {EX}\) 的分布与 \(\theta\) 无关,求 \(W\) 的分位数 \({w}_{\frac{\alpha }{2}}\) 和 \({w}_{1 - \frac{\alpha }{2}}\) 就可以构造 \(\phi  = {EX}\) 的置信区间 \(\left( {\bar{X} - {w}_{1 - \frac{\alpha }{2}},\bar{X} - {w}_{\frac{\alpha }{2}}}\right)\) 。

若 \(W\) 的分位数无法求得,用经验分布 \({F}_{n}\) 作为总体分布 \(F\) 的估计,这时 \(\phi \left( {F}_{n}\right)  = \bar{X}\) ,设 \(\mathbf{Y} = \left( {{Y}_{1},\ldots ,{Y}_{n}}\right)\) 为 \({F}_{n}\) 的样本, \(V = h\left( {g\left( \mathbf{Y}\right) ,\bar{X}}\right)  = \bar{Y} - \bar{X}\) ,这里 \(\bar{X}\) 作为已知值,可以用 \(V\) 的分位数近似代替 \(W\) 的分位数。求 \(V\) 的分位数,只要用有放回独立抽样方法从 \({x}_{1},{x}_{2},\ldots ,{x}_{n}\) 抽取 \({F}_{n}\) 的 \(B\) 组样本 \({\mathbf{Y}}^{\left( b\right) } = \left( {{y}_{1}^{\left( b\right) },\ldots ,{y}_{n}^{\left( b\right) }}\right) ,b = 1,2,\ldots ,B\) ,对每组样本计算平均值 \({\bar{Y}}^{\left( b\right) }\) ,定义 \({V}^{\left( b\right) } = {\bar{Y}}^{\left( b\right) } - \bar{X}\) ,用 \({V}^{\left( b\right) },b = 1,2,\ldots ,B\) 的样本分位数估计 \(V\) 的分位数,作为 \(W\) 的分位数 \({w}_{\frac{\alpha }{2}}\) 和 \({w}_{1 - \frac{\alpha }{2}}\) 的近似。

{\color{red}\textbf{[Bootstrap 置信区间的本质]:} 传统方法需要知道 \(W = \bar{X} - {EX}\) 的理论分布(如正态分布),但当分布未知时,Bootstrap 通过生成 \(B\) 个 \(\bar{Y} - \bar{X}\) 值来``画出''这个分布的直方图,然后直接从直方图读取分位数——这是用计算力换取理论推导的经典例子。}
